8 research outputs found

    Adaptation de domaine non supervisée pour la reconnaissance de la langue par régularisation d'un réseau de neurones

    Get PDF
    National audienceLes systèmes automatiques d’identification de la langue subissent une dégradation importante de leurs performances quand les caractéristiques acoustiques des signaux de test diffèrent fortement des caractéristiques des données d’entraînement. Dans cet article, nous étudions l’adaptation de domaine non supervisée d’un système entraîné sur des conversations téléphoniques à des transmissions radio. Nous présentons une méthode de régularisation d’un réseau de neurones consistant à ajouter à la fonction de coût un terme mesurant la divergence entre les deux domaines. Des expériences sur le corpus OpenSAD15 nous permettent de sélectionner la Maximum Mean Discrepancy pour réaliser cette mesure. Cette approche est ensuite appliquée à un système moderne d’identification de la langue reposant sur des x-vectors. Sur le corpus RATS, pour sept des huit canaux radio étudiés, l’approche permet, sans utiliser de données annotées du domaine cible, de surpasser la performance d’un système entraîné de façon supervisée avec des données annotées de ce domaine

    Unsupervised regularization of the embedding extractor for robust language identification

    Get PDF
    International audienceState-of-the-art spoken language identification systems are constituted of three modules: a frame-level feature extractor, a segment-level embedding extractor and a final classifier. The performance of these systems degrades when facing mismatch between training and testing data. Most domain adaptation methods focus on adaptation of the final classifier. In this article , we propose a model-based unsupervised domain adaptation of the segment-level embedding extractor. The approach consists in a modification of the loss function used for training the embedding extractor. We introduce a regularization term based on the maximum mean discrepancy loss. Experiments were performed on the RATS corpus with transmission channel mismatch between telephone and radio channels. We obtained the same language identification performance as supervised training on the target domains but without using labeled data from these domains

    Metric learning loss functions to reduce domain mismatch in the x-vector space for language recognition

    Get PDF
    International audienceState-of-the-art language recognition systems are based on dis-criminative embeddings called x-vectors. Channel and gender distortions produce mismatch in such x-vector space where em-beddings corresponding to the same language are not grouped in an unique cluster. To control this mismatch, we propose to train the x-vector DNN with metric learning objective functions. Combining a classification loss with the metric learning n-pair loss allows to improve the language recognition performance. Such a system achieves a robustness comparable to a system trained with a domain adaptation loss function but without using the domain information. We also analyze the mismatch due to channel and gender, in comparison to language proximity, in the x-vector space. This is achieved using the Maximum Mean Discrepancy divergence measure between groups of x-vectors. Our analysis shows that using the metric learning loss function reduces gender and channel mismatch in the x-vector space, even for languages only observed on one channel in the train set

    Robustesse au canal des systèmes de reconnaissance de la langue

    No full text
    Language recognition is the task of predicting the language used in a test speech utterance. Since 2017, the best performing systems have been based on a deep neural network which is trained to predict language labels for the whole utterance. These systems suffer from a drop in performance when they are exposed to a change of the transmission channel between train and test data. The goal of this thesis is to investigate approaches to limit this performance drop, for these new systems.An increase in the invariance, with respect to the transmission channel, of the representations used by the neural network can increase the robustness of the system. We show that the regularization of the loss function used to train the neural network is an efficient approach to increase invariance. Two kinds of regularization functions are analysed. Divergence measures between domains reduce effectively the variability between known domains, they can also be used to incorporate unlabeled data into the training set in a semi-supervised learning framework. Metric learning cost functions are able to reduce unknown variabilities within the training set. We show how this regularization method can be enforced for three practical learning settings : unsupervised domain adaptation, multi-domain learning and domain generalization.During this work, we have designed methods for analyzing the quality of the representations. They aim at evaluating the variability of the representations induced by the transmission channel and to compare it to the variability that caused the language. Two tools are proposed : ratio between inter class and intra class covariance matrices and divergence measures between groups of representations. With these tools, we quantitatively evaluate the robustness to a change of transmission channel of the representations and analyse the effect of the regularization functions over the space of representations. We understand that an increase in invariance between channels can lead to more discriminative representations between languages and consequently to an increase in performance over each transmission channel.Finally, we contribute to the improvement of the training recipe of another module of the system, the bottleneck feature extractor. We replace it with a multilingual end-to-end automatic speech recognition neural network. It achieves a simiar performance as a traditional bottleneck feature extractor with a simplified training recipe. The use of data augmentation and regularization methods improves further this module. Moreover we show that a performance gain can be achieved with a joint training of the bottleneck feature extractor along with the language identification neural network. This paves the way to the application of the proposed regularization loss functions to the two modules jointly.La tâche de reconnaissance de la langue consiste à prédire la langue utilisée dans un énoncé audio contenant de la parole. Depuis 2017, les systèmes atteignant les meilleures performances reposent sur un réseau de neurones profond, entraîné à identifier la langue pour l’ensemble du segment. Ces systèmes subissent une perte de performance lorsqu’ils sont exposés à une variation des canaux de transmission entre les données d’entraînement et d’évaluation. L’objet de cette thèse est l’exploration d’approches permettant de limiter cette perte de performance dans le cadre de ces nouveaux systèmes. Nos travaux peuvent être regroupés en trois directions : l’étude d’une méthode d’amélioration de la robustesse au canal des systèmes, l’analyse de leur robustesse et la simplification de la recette d’apprentissage.Une augmentation de l’invariance, par rapport au canal de transmission, des représentations utilisées par le réseau de neurones peut augmenter la robustesse du système. Nous montrons que la régularisation de la fonction de coût utilisée lors de l’entraînement du réseau de neurones est un outil efficace pour augmenter cette invariance. Deux types de fonction de régularisation sont analysés. Les mesures de divergence entre les domaines réduisent efficacement la variabilité entre des canaux identifiés, elles peuvent également être utilisées pour valoriser des données non annotées dans le cadre d’un apprentissage semi-supervisé. Les fonctions de coût de metric learning permettent de réduire des variabilités inconnues dans l’ensemble d’apprentissage. Nous montrons comment cette méthode peut être mise en œuvre dans trois scénarios d’apprentissage d’intérêt pratique : l’adaptation de domaine non supervisée, l’apprentissage multi-domaines et la généralisation à un domaine inconnu. Au cours de l’étude de cette approche, nous développons des méthodes d’analyse de la qualité des représentations. Elles visent à mesurer la variabilité des représentations due au canal de transmission et à la comparer à la variabilité due à la langue. Deux outils sont introduits : le calcul de rapports entre les covariance inter-classes et intra-classes et la mesure de divergences entre groupes de représentations. Ceux-ci nous permettent d’évaluer quantitativement la robustesse des représentations au changement de canal et donc de comprendre l’effet des fonctions de régularisation sur l’espace des représentations. En particulier, ces méthodes révèlent que l’augmentation de l’invariance entre les canaux peut mener à des représentations plus discriminantes entre les langues et donc à une amélioration de la performance sur chacun des canaux de transmission.Enfin, nous contribuons à l’amélioration de la recette d’entraînement d’un autre module du système, l’extracteur de bottleneck features. Nous montrons qu’un réseau de neurones de reconnaissance de la parole de bout en bout multilingue permet de réaliser cette extraction, avec une meilleure performance et une recette d’apprentissage simplifiée. L’utilisation d’augmentations de données et de méthodes de régularisation améliore la performance de ce module. D’autre part nous montrons qu’un gain de performance peut 207être obtenu en réalisant un entraînement conjoint de ce module avec le réseau d’identification de la langue. Cela ouvre la voie à l’application simultanée des fonctions de régularisation étudiées aux deux modules

    Robustesse au canal des systèmes de reconnaissance de la langue

    No full text
    Language recognition is the task of predicting the language used in a test speech utterance. Since 2017, the best performing systems have been based on a deep neural network which is trained to predict language labels for the whole utterance. These systems suffer from a drop in performance when they are exposed to a change of the transmission channel between train and test data. The goal of this thesis is to investigate approaches to limit this performance drop, for these new systems.An increase in the invariance, with respect to the transmission channel, of the representations used by the neural network can increase the robustness of the system. We show that the regularization of the loss function used to train the neural network is an efficient approach to increase invariance. Two kinds of regularization functions are analysed. Divergence measures between domains reduce effectively the variability between known domains, they can also be used to incorporate unlabeled data into the training set in a semi-supervised learning framework. Metric learning cost functions are able to reduce unknown variabilities within the training set. We show how this regularization method can be enforced for three practical learning settings : unsupervised domain adaptation, multi-domain learning and domain generalization.During this work, we have designed methods for analyzing the quality of the representations. They aim at evaluating the variability of the representations induced by the transmission channel and to compare it to the variability that caused the language. Two tools are proposed : ratio between inter class and intra class covariance matrices and divergence measures between groups of representations. With these tools, we quantitatively evaluate the robustness to a change of transmission channel of the representations and analyse the effect of the regularization functions over the space of representations. We understand that an increase in invariance between channels can lead to more discriminative representations between languages and consequently to an increase in performance over each transmission channel.Finally, we contribute to the improvement of the training recipe of another module of the system, the bottleneck feature extractor. We replace it with a multilingual end-to-end automatic speech recognition neural network. It achieves a simiar performance as a traditional bottleneck feature extractor with a simplified training recipe. The use of data augmentation and regularization methods improves further this module. Moreover we show that a performance gain can be achieved with a joint training of the bottleneck feature extractor along with the language identification neural network. This paves the way to the application of the proposed regularization loss functions to the two modules jointly.La tâche de reconnaissance de la langue consiste à prédire la langue utilisée dans un énoncé audio contenant de la parole. Depuis 2017, les systèmes atteignant les meilleures performances reposent sur un réseau de neurones profond, entraîné à identifier la langue pour l’ensemble du segment. Ces systèmes subissent une perte de performance lorsqu’ils sont exposés à une variation des canaux de transmission entre les données d’entraînement et d’évaluation. L’objet de cette thèse est l’exploration d’approches permettant de limiter cette perte de performance dans le cadre de ces nouveaux systèmes. Nos travaux peuvent être regroupés en trois directions : l’étude d’une méthode d’amélioration de la robustesse au canal des systèmes, l’analyse de leur robustesse et la simplification de la recette d’apprentissage.Une augmentation de l’invariance, par rapport au canal de transmission, des représentations utilisées par le réseau de neurones peut augmenter la robustesse du système. Nous montrons que la régularisation de la fonction de coût utilisée lors de l’entraînement du réseau de neurones est un outil efficace pour augmenter cette invariance. Deux types de fonction de régularisation sont analysés. Les mesures de divergence entre les domaines réduisent efficacement la variabilité entre des canaux identifiés, elles peuvent également être utilisées pour valoriser des données non annotées dans le cadre d’un apprentissage semi-supervisé. Les fonctions de coût de metric learning permettent de réduire des variabilités inconnues dans l’ensemble d’apprentissage. Nous montrons comment cette méthode peut être mise en œuvre dans trois scénarios d’apprentissage d’intérêt pratique : l’adaptation de domaine non supervisée, l’apprentissage multi-domaines et la généralisation à un domaine inconnu. Au cours de l’étude de cette approche, nous développons des méthodes d’analyse de la qualité des représentations. Elles visent à mesurer la variabilité des représentations due au canal de transmission et à la comparer à la variabilité due à la langue. Deux outils sont introduits : le calcul de rapports entre les covariance inter-classes et intra-classes et la mesure de divergences entre groupes de représentations. Ceux-ci nous permettent d’évaluer quantitativement la robustesse des représentations au changement de canal et donc de comprendre l’effet des fonctions de régularisation sur l’espace des représentations. En particulier, ces méthodes révèlent que l’augmentation de l’invariance entre les canaux peut mener à des représentations plus discriminantes entre les langues et donc à une amélioration de la performance sur chacun des canaux de transmission.Enfin, nous contribuons à l’amélioration de la recette d’entraînement d’un autre module du système, l’extracteur de bottleneck features. Nous montrons qu’un réseau de neurones de reconnaissance de la parole de bout en bout multilingue permet de réaliser cette extraction, avec une meilleure performance et une recette d’apprentissage simplifiée. L’utilisation d’augmentations de données et de méthodes de régularisation améliore la performance de ce module. D’autre part nous montrons qu’un gain de performance peut 207être obtenu en réalisant un entraînement conjoint de ce module avec le réseau d’identification de la langue. Cela ouvre la voie à l’application simultanée des fonctions de régularisation étudiées aux deux modules

    Modeling and training strategies for language recognition systems

    No full text
    International audienceAutomatic speech recognition is complementary to language recognition. The language recognition systems exploit this complementarity by using frame-level bottleneck features extracted from neural networks trained with a phone recognition task. Recent methods apply frame-level bottleneck features extracted from an end-to-end sequence-to-sequence speech recognition model. In this work, we study an integrated approach of the training of the speech recognition feature extractor and language recognition modules. We show that for both classical phone recognition and end-to-end sequence-to-sequence features, sequential training of the two modules is not the optimal strategy. The feature extractor can be improved by supervision with the language identification loss, either in a fine-tuning step or in a multi-task training framework. Besides, we notice that end-to-end sequence-to-sequence bottleneck features are on par with classical phone recognition bottleneck features without requiring a forced alignment of the signal with target tokens. However, for sequence-to-sequence, the architecture of the model seems to play an important role; the Conformer architectures leads to much better results than the conventional stacked DNNs approach; and can even be trained directly with the LID module in an end-to-end approach

    Language recognition on unknown conditions: the LORIA-Inria-MULTISPEECH system for AP20-OLR Challenge

    Get PDF
    International audienceWe describe the LORIA-Inria-MULTISPEECH system submitted to the Oriental Language Recognition AP20-OLR Challenge. This system has been specifically designed to be robust to unknown conditions: channel mismatch (task 1) and noisy conditions (task 3). Three sets of studies have been carried out for elaborating the system: design of multilingual bottleneck features, selection of robust features by evaluating language recognition performance on an unobserved channel, and design of the final models with different loss functions which exploit channel diversity within the training set. Key factors for robustness to unknown conditions are data augmentation techniques, stochastic weight averaging, and regularization of TDNNs with domain robustness loss functions. The final system is the combination of four TDNNs using bottleneck features and one GMM using SDC-MFCC features. Within the AP20-OLR Challenge, it achieves the top performance for tasks 1 and 3 with a CavgC_{avg} of respectively 0.0239 and 0.0374. This validates the approach for generalization to unknown conditions

    SERB, a nano-satellite dedicated to the Earth-Sun relationship

    No full text
    International audienceThe Solar irradiance and Earth Radiation Budget (SERB) mission is an innovative proof-of-concept nano-satellite, with three ambitious scientific objectives. The nano-satellite aims at measuring on the same platform the absolute value of the total solar irradiance (TSI) and its variability, the ultraviolet (UV) solar spectral variability, and the different components of the Earth radiation budget. SERB is a joint project between CNES (Centre National d'Etudes Spatiales), Ecole polytechnique, and LATMOS (Laboratoire Atmospheres, Milieux, Observations Spatiales) scheduled for a launch in 2020–2021. It is a three-unit CubeSat (X-CubeSat II), developed by students from ´Ecole polytechnique. Critical components of instrumental payloads of future large missions (coatings, UV filters, etc.) can acquire the technical maturity by flying in a CubeSat. Nano-satellites also represent an excellent alternative for instrumentation testing, allowing for longer flights than rockets. More-over, specific scientific experiments can be performed by nano-satellites. This paper is intended to present the SERB mission and its scientific objectives. © (2016) COPYRIGHT Society of Photo-Optical Instrumentation Engineers (SPIE). Downloading of the abstract is permitted for personal use only
    corecore